class: inverse,left, middle background-image: url(data:image/png;base64,#background.png) background-size: cover <img src="data:image/png;base64,#LOGO_DIPLOMADO.png" width="500px"/> ##Módulo 3: EstadÃstica espacial y geoestadÃstica ### Validación Javiera Aguayo T.<br> javiera.aguayo@pucv.cl<br> .large[<b><a href="https://www.pucv.cl/uuaa/site/edic/base/port/labgrs.html">LabGRS</a> | Octubre 2022</b>] <br> --- class: center,middle background-image: url(data:image/png;base64,#labgrs_logo.png) background-size: 35% --- ##Contenidos - Mapa de Varianza - ¿Como podemos validar nuestra predicción? - Tipos de validaciones: - Error cuadrático medio (Mean Esquared error) - Ventajas y desventajas de la validación por "Error cuadrático medio" - Validación Cruzada (Cross Validation) - Ventajas y desventajas de la "Validación Cruzada" --- ## Mapa de Varianza .pull-left[ El mapa de varianza nos muestra una estimación del error de interpolación. Este **error será menor** en el área o entorno donde tengamos **mayor correlación espacial** y en aquellas áreas donde haya **mayor densidad de observaciones**. ] .pull-right[ <right><img src="data:image/png;base64,#map_varianza.png" width="500px"/></right> ] --- ## ¿Como podemos validar nuestra predicción? El mapa de varianza no es suficiente por sà solo para validar nuestra predicción, por lo que debemos aplicar una técnica de validación que nos muestre o **indique que la estimación realizada proporciona valores lo más cercanos posibles a los verdaderos valores muestreados.** <center><img src="data:image/png;base64,#varianza.png" width="500px"/></center> --- ##Tipos de Validaciones: ###**Error Cudrático Medio (Mean Squared error)** .pull-left[ Se conoce como un tipo de validación simple, que consiste en repartir aletoriamente los datos en dos conjuntos, un conjunto de entrenamiento y un conjunto de validación. Tiene como objetivo medir el error cuadrático medio de las predicción del modelo, a partir del cálculo de la diferencia cuadrada entre el resultado observado y los valores predichos, y luego calcula la media (promedio) de ellos. ] .pull-right[ <center><img src="data:image/png;base64,#formula_mse.png" width="500px"/></center> <center><img src="data:image/png;base64,#P_base.png" width="400px"/></center> ] --- ##**Ventajas y desventajas de la validación por "Error cuadrático medio"** ### _Ventajas:_ > - Se puede implementar en bases de datos abundantes > - La validación no se hace con el mismo conjunto de datos con los que se hace la predicción ### _Desventajas:_ > - La estimación del error es altamente variable, ya que depende del n° de observaciones que se incluyan como parte del conjunto de entrenamiento o del conjunto de validación. > - Al excluir parte de las observaciones, se dispone de menos información con la que entrenar el modelo y, por lo que se reduce la capacidad de estimación del mismo. --- ##Tipos de Validaciones: ###**Validación Cruzada** #### _Leave One Out Cross-Validation (LOOCV)_ .pull-left[ Es un método de validación iterativo que consiste en repetir un _x_ número de predicción, según _x_ número de datos muestreados y en cada predicción emplea como conjunto de entrenamiento todas las observaciones disponible excepto una, que es excluida para ser utilizada como validación. <center><img src="data:image/png;base64,#formula_cross_v.png" width="500px"/></center> ] .pull-right[ <center><img src="data:image/png;base64,#P_base.png" width="500px"/></center> ] --- <center><img src="data:image/png;base64,#P_cross_v.png" width="750px"/></center> --- ##**Ventajas y desventajas de la "Validación Cruzada"** ### _Ventajas:_ > - A diferencia de la validación por "Error cuadrático medio", permite reducir la variabilidad que se origina si se divide aleatoriamente las observaciones únicamente en dos grupos. > - El proceso utiliza todos los datos disponibles tanto para entrenamiento como para validación. ### _Desventaja:_ > - Una desventaja estadÃstica es que a mayor número de puntos, payor será la cantidad de recursos computacionales para la iteración del proceso. > - Al utilizar todas las observaciones como parte del entrenamiento, algunos estadiscos sugieren que se sobreajusta el modelo. --- A continuación seguiremos desarrollando el script de Interpolación por Kriging Ordinario, en donde se estimó la **temperatura (°C)**, para toda la provincia de Cauquenes. Para llevar a cabo la validación cruzada, se implementará la función **krige.cv()** del paquete gstat, que permite realizar una validación cruzada (LOOCV), utilizando como parámetro la fórmula, la localización de los datos, nuestra base de datos y el modelo estimado en base al variogram empÃrico. ```r validacion<- krige.cv(formula=t_mean1~1, locations=~X+Y, data=tb, model=v.emp) summary(validacion) ``` -- Una vez calculados los Z-scores, se pueden analizar la sobreestimación y subestimación de los datos en el espacio, a partir de un histograma. ```r hist(validacion$zscore) ``` -- Y finalmente para obtener un buen resultado de validación se deben revisar las siguientes medidas estadisticas: > - **Media = 0** > - **Desviación estandar = 1** ```r mean(validacion$zscore) sd(validacion$zscore) ``` --- ### BibliografÃa -2020. JoaquÃn Amat Rodrigo. Validación de modelos predictivos: Cross-validation, OneLeaveOut, Bootstraping.https://www.cienciadedatos.net/documentos/30_cross-validation_oneleaveout_bootstrap -2014. Edzer J. Pebesma. gstat user's manual. http://www.gstat.org/gstat.pdf -2022. Edzer J. Pebesma.Package ‘gstat’. https://cran.r-project.org/web/packages/gstat/gstat.pdf --- class: inverse middle 